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摘要 : [目的 /意义 ] 研究 大 数据 应 用 领域 的 研究 现状 和 发 展 趋势 ， 并 揭示 其 发 展 规律 . [方法 /过 
程 ] 制定 大 数据 应 用 技术 的 数据 检索 策略 , 选取 1990-2015 年 相关 文献 研究 数据 , 借助 计量 软件 VP(Vantage 
Point) 、 统 计 分 析 软 件 SPSS 和 Microsoft Excel 等 工具 ， 分 别 从 载 文 量 分 布 、 期 刊 分 布 和 作者 分 布 3 个 层 
面 ， 验 证 并 分 析 该 领域 文献 发 展 是 否 符合 普 赖 斯 科学 文献 增长 规律 、 布 拉 德 福 定律 以 及 洛 特 卡 定律 。[ 结 
IR /结论 ] 大 数据 应 用 领域 相关 论文 自 1990 年 开始 ， 经 过 一 段 时 间 的 稳步 发 展 后 ， 至 2012 年 开始 显现 突 
飞 猛 进 的 发 展 ， 其 文献 发 展 符合 普 赖 斯 科学 文献 增长 规律 ， 文 献 样本 的 期 刊 分 布 基本 符合 布 拉 德 福 定 律 ， 
并 已 形成 核心 期 刊 群 ， 其 中 包括 BMC BIOINFORMATICS, SENSORS 等 ; 该 领域 著者 分 布 与 洛 特 卡 定律 
相差 很 大 ， 尚 未 形成 较 具 影响 力 的 核心 著者 群 。 

关键 词 : 大 数据 应 用 “ 普 赖 斯 科学 文献 增长 规律 “” 布 拉 德 福 定 律 ” 洛 特 卡 定律 
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合 战 略 "中 、 韩 国 大 数据 中 心 战略 中 等 先后 开启 
了 大 数据 战略 的 大 幕 。 大 量 跨 国企 业 也 进入 大 
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近年 来 ,“ 大 数据 ?引起 各 国政 府 、 产 业界 
和 科技 界 的 高 度 关注 。 全 球 范围 内 ， 运 用 大 数 
据 推动 经 济 发 展 、 完 善 社会 治理 、 提 升 政 府 服 
务 和 监管 能 力 正 成 为 趋势 ， 有 关 发 达 国家 相继 
制定 实施 大 数据 战略 性 文件 ， 大 力 推动 大 数据 
发 展 和 应 用 mM。 联合 国 “数据 脉动 ”计划 中、 美国 
“大 数据 ”战略 中、 日 本 “面向 2020 年 的 ICT 综 


数据 研究 与 开发 领域 ， 如 传统 数据 分 析 企 业 天 
AAT] (Teradata) 、 思 爱 普 (SAP) 、SPSS 以 
及 大 数据 资源 企业 谷歌 、Facebook 等 外 。2008 
^F, Nature 杂志 出 版 专刊 Big Data， 基 于 多 个 学 
科 的 实际 研究 现状 系统 地 介绍 了 “大 数据 ?所 蕴 
含 的 潜在 价值 与 挑 成 0，2011 年 ，Science 杂志 
出 版 的 专刊 Dealing with Data, 这 些 研究 标志 着 大 


基金 项 目 : 本 文系 国家 自然 科学 基金 项 目 “ 我 国 专利 申请 量 增长 的 影响 因素 及 动力 机 制 研究 ”( 项 目 纺 
号 :71273030) 和 “国家 创新 体系 国际 化 政策 协同 机 制 / 过 程 模型 及 效应 评估 研究 ”( 项 目 编号 :71573017) 研究 


BUR —. 


作者 简介 : Kà (ORCID: 0000-0001-8281-710X) , +R E, E-maibzhangjjex(2163.com; 3l (ORCID: 
0000-0002-2888-8932) ， 教 授 ， 博 士 生 导师 ; 42254 (ORCID: 0000-0002-9365-055X) ， 博 士 研究 生 。 


收 稿 日 期 : 2016-08-01 发 表 日 期 : 2016-10-27 


384 


本 文责 任 编辑 : 徐 健 


202310.03121v1 


chinaXiv 


数据 ?正式 登 上 科学 研究 的 大 舞台 ， 并 成 为 各 个 
学 科 中 的 研究 热点 问题 。 一 个 大 规模 生产 、 分 
享 和 应 用 数据 的 时 代 即 将 到 来 S. 

大 数据 应 用 (big data application, BDA) 是 
运用 大 数据 的 思维 和 方法 ， 利 用 大 数据 分 析 的 
结果 ， 为 用 户 提供 辅助 决策 ， 发 掘 潜在 价值 
的 过 程 站， 越 来 越 多 的 问题 可 以 通过 大 数据 的 
应 用 来 解决 。 其 应 用 不 仅仅 限于 科学 技术 层 
面 ， 在 公共 管理 、 基 础 研究 和 应 用 研究 以 及 商 
业 领 域 等 层面 ， 大 数据 都 能 够 带 来 新 理念 和 新 
思维 ， 提 供 解 决 问题 的 新 方法 或 新 视角 外 。 高 
小 平 中 、 李 欢 "1、 高 霞 趾 分别 在 国家 治理 变 
草创 新 、 科 技 管理 创新 平台 构建 和 科技 评价 方 
法 等 方面 ， 运 用 了 大 数据 的 思维 和 方法 ， 从 基 
础 和 应 用 研究 角度 ， 李 振 插 "和 黄 少 芳 分 
别 在 中 药 的 质量 控制 和 地 质 资 料 档案 信息 化 的 
相关 研究 中 应 用 了 大 数据 ，N. O. E. Olsson 和 H. 
Bullberg "9 在 项 目 评价 的 过 程 中 结合 了 对 大 数 
据 的 应 用 ，S. R. Sukumar 和 R. Natarajan "" 则 将 
大 数据 方法 应 用 到 了 卫生 保健 领域 的 相关 研究 
tH, M. C. Ebach 和 M. S. Michael * 等 人 曾 研究 
了 历史 科学 和 大 数据 的 关系 ; 此 外 ， 在 商业 领 
域 ，T. H. Davenport "”, J. Frizzo-Barker P” 和 C. 
F. Hofacker *! 等 运用 大 数据 分 别 从 国际 商业 决 
策 、 商 业 奖 学 金 和 消费 者 行为 等 不 同 角 度 进行 
了 系列 人 研究。 可 见 “ 大 数据 ”已 经 在 很 多 领域 得 
到 广泛 应 用 ， 在 本 质 上 已 经 转化 为 一 种 新 的 思 
维 方式 、 一 种 新 的 问题 解决 方法 071, 

大 数据 应 用 的 益处 是 多 角度 多 方面 的 ， 不 
仅 能 够 优化 政府 效能 、 管 理 决策 、 市 场 监管 、 公 
共 服 务 、 城 市 设施 、 社 会 治安 等 ， 还 可 以 为 经 
济 、 教 育 、 文 化 、 了 卫生、 外 交 等 领域 带 来 不 菲 
的 收益 。 我 国 互 联网 、 移 动 互 联网 用 户 规 模 居 
全 球 第 一 ， 拥 有 丰富 的 数据 资源 和 应 用 市 场 优 
势 ， 大 数据 部 分 关键 技术 研发 取得 突破 ， 涌 现 
出 一 批 互联 网 创新 企业 和 创新 应 用 ， 一 些 地 方 
政府 已 启动 大 数据 相关 工作 趾 。 充 分 利用 我 国 
的 数据 规模 优势 ， 实 现 数据 规模 、 质 量 和 应 用 
水 平 同步 提升 ， 发 掘 和 释放 数据 资源 的 洪 在 价 
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值 ， 有 利于 更 好 发 挥 数据 资源 的 战略 作用 。 
此 ， 无 论 是 科学 技术 层面 、 公 共管 理 部 门 、 基 
础 和 应 用 研究 、 商 业 领 域 等 层面 的 大 数据 应 
用 ， 还 是 经 济 、 教 育 、 文 化 、 卫 生 、 外 交 等 领 
域 的 应 用 研究 ， 都 具有 较 高 的 研究 意义 。 

本 研究 着 眼 于 大 数据 应 用 ， 探 索 该 领域 的 
文献 发 展 规律 ， 继 而 进行 相关 发 展 定律 的 验证 
与 研究 ， 以 期 系统 地 揭示 BDA 技术 的 发 展 特 
征 、 规 律 和 趋势 , 从 而 为 后 续 相 关 人 研究 提供 参考 。 
@ 研 究 方法 与 数据 来 源 

关于 大 数据 概念 的 起 源 说 法 不 一 ， 有 人 
认为 最 早 是 由 全 球 知名 咨询 公司 麦肯锡 提出 
的 ， 也 有 人 认为 是 1998 年 由 SGI 的 首席 科学 家 
J. R. Mashey 在 一 篇 发 表 于 USENIX 会 议 的 名 为 
“Big Data and the Next Wave of Infrastres” 的 文章 
rre ide dg Ps 还 有 人 认为 是 由 20 世纪 90 年 
代数 据 仓库 之 父 B. Inmon 提出 的 。 本 研究 基于 
Web of Science 数据 库 ， 制 定 了 相关 数据 检索 策 
略 ， 将 所 有 涉及 BDA 概念 或 运用 大 数据 思维 或 
方法 来 解决 有 关 问 题 的 论文 均 作 为 研究 分 析 的 
数据 对 象 ， 检 索 结 果 中 的 数据 包含 1990-2015 年 
的 数据 信息 ， 共 计 1 701 项 。 研 究 使 用 的 数据 库 
Web of Science, 是 一 种 综合 性 文献 检索 工具 , 其 
数据 来 源 于 世界 上 40 多 个 国家 和 地 区 中 的 学 术 
期 刊 、 专 题 文集 和 会 议 录 ， 以 及 大 量 的 专利 文 
献 和 科技 图 书 等 。 涉 及 的 学 科 包括 生物 学 、 农 
学 、 医 学 、 化 学 、 物 理学 、 地 球 科 学 、 生 命 科 
学 等 ， 是 国际 上 收集 科学 论文 相互 引证 最 为 完 
备 的 数据 库 。 本 研究 选取 科学 引文 索引 (SCI ) 为 
基础 数据 源 ， 制 定 相应 检索 策略 ， 在 此 基础 之 
上 进行 进一步 的 研究 和 分 析 。 

科技 文献 自 产 生 以 来 便 随 时 间 的 推移 而 增 
入 ， 普 赖 斯 通过 考察 科技 文献 的 积累 过 程 ， 从 
中 发 现 了 增长 规律 。 这 一 成 果 被 收集 在 他 的 代 
表 著 作 《 巴 比 伦 以 来 的 科学 》 中 ， 对 后 世 的 科 
学 文献 研究 产生 了 深刻 的 影响 中。 普 赖 斯 对 摘 
要 性 杂志 的 增长 率 进 行 了 推算 ， 以 科技 文献 量 
为 纵 轴 ， 以 历史 年 代为 横 轴 ， 把 不 同年 代 的 科 
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技 文献 量 在 坐标 图 上 逐 点 描绘 出 来 ， 然 后 用 一 
条 光滑 曲线 联结 各 点 ， 十 分 近似 的 表征 了 科技 
文献 随时 间 增 长 的 规律 ， 这 就 是 著名 的 普 赖 共 
曲线 ， 其 数学 表达 式 为 : 

F(t)=ae™(a>0,b>0) (1) 

其 中 F(t) 表示 科技 文献 量 ，a 为 统计 初始 时 
A) CEP t=0) 的 文献 量 ，e 为 自然 对 数 底 ，b 是 
期 刊 的 持续 增长 率 ， 是 一 个 时 间 和 常数 。 

布 拉 德 福 定 律 和 洛 特 卡 定律 都 属于 文献 计 
量 学 的 重要 定律 ， 与 齐 普 夫 定律 一 起 被 并 称 为 
文献 计量 学 的 三 大 定律 。 布 拉 德 福 定 律 可 以 表 
述 为 : 如 果 将 科技 期 刊 按 其 刊载 某 学 科 专 业 论 
文 的 数量 多 少 ， 以 递减 顺序 排列 ， 那 么 可 以 把 
期 刊 分 为 专门 面向 这 个 学 科 的 核心 区 、 相 关 区 
和 非 相 关 区 。 各 个 区 的 文章 数量 相等 ， 此 时 核 
心 区 、 相 关 区 、 非 相关 区 期 刊 数量 呈 的 关系 。 
布 拉 德 福 定律 是 以 科学 论文 在 期 刊 中 的 分 散 情 
况 为 基础 创建 的 ， 但 却 可 以 派生 出 许多 不 同 的 
应 用 , 对 于 确定 核心 期 刊 、 制 定 文献 采购 策略 、 优 
化 馆藏 、 检 验 工 作 情 况 、 了 解读 者 阅读 倾向 、 检 
索 利用 文献 等 方面 都 有 一 定 的 指导 作用 P9. 

洛 特 卡 定律 是 美国 人 洛 特 卡 在 1926 年 发 现 
的 。 该 定律 被 认为 是 第 一 次 揭示 了 作者 频率 与 
文献 数量 之 间 的 关系 ， 描 述 科学 生产 率 的 频率 
分 布 规律 。 广 义 的 洛 特 卡 定律 可 以 用 以 下 公式 
表示 H 


f(x)=cn™ (2) 
其 中 : f(x) 表示 在 一 定时 间 内 ， 某 一 特定 学 
科 或 主题 领域 中 ,撰写 了 x 篇 论文 的 作者 数 (或 
作者 频率 ) ; c 和 an 是 两 个 大 于 零 的 常数 所。 一 
般 对 洛 特 卡 定律 的 描述 为 : 发 表 两 篇 论文 的 作 
者 数量 约 为 发 表 一 篇 论文 的 作者 数量 的 1/4; 发 
表 三 篇 论文 的 作者 数量 约 为 发 表 一 篇 论文 作者 
数量 的 1/9; 发表 N 篇 论文 的 作者 数量 约 为 发 表 
一 篇 论文 作者 数量 的 Wn .….…， 而 发 表 一 篇 论 
文 作者 的 数量 约 占 所 有 作者 数量 的 60% 即 取 
c=1, n=2) 。 本 研究 即 采 用 这 种 方法 进行 分 析 
和 验证 。 
在 采用 以 上 3 种 文献 计量 学 方法 的 同 
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时 ， 本 人 研究 还 借助 了 计量 软件 VP CVantage 
Point) 、 统 计 分 析 软 件 SPSS 和 Microsoft Excel 
等 工具 ， 对 所 获取 数据 进行 载 文 、 期 刊 和 著者 
情况 等 层面 的 统计 、 分 析 和 验证 。 


全 统计 结果 分 析 


3.1 载 文 量 分 析 

文献 发 表 数量 从 一 定 程 度 上 反映 出 该 领域 
的 相关 研究 在 既定 时 间 的 研究 水 平和 发 展 趋势 。 
文献 的 数量 随时 间 、 地 区 、 类 型 等 变量 分 布 ， 是 
文献 样本 的 基本 特征 之 一 ， 也 是 最 基础 、 最 简 
单 的 分 析 项 目 之 一 中。 本 研究 统计 了 1990-2015 
年 这 16 年 间 BDA 领域 的 文献 统计 量 的 变化 情 
况 ， 见 图 1 。 

从 所 收录 相关 文献 的 时 间 来 看 ， 最 早 的 
文献 是 1990 年 来 自 匈 牙 利 布达佩斯 科技 经 
济 大 学 的 科学 家 T. Kantor 所 车 的 题 为 Novel 
Applications of halogenation Reactions in Atomic 
Spectrometry 的 文章 。 他 将 大 数据 应 用 到 原子 
光谱 分 析 讽 化 反应 的 研究 当中 ， 是 早期 应 用 大 
数据 进行 科学 人 研究 的 良好 范例 。 根 据 所 获得 的 
时 间 -文献 量 二 维 数据 表 ， 可 以 进一步 得 到 随 
时 间 变 化 的 载 文 量 的 趋势 和 载 文 量 增长 率 的 变 
化 情况 〈 见 图 1) : 从 1990 年 的 第 一 篇 文献 
收录 开始 ，1991- 997 年 的 7 年间， 文献 量 均 维 
持 在 10 篇 左右 ， 大 数据 的 应 用 技术 研究 尚 处 
在 初期 发 展期 间 ，@) 1998- 2011 年 ， 文 献 量 较 
上 一 阶段 有 一 定 增长 ， 除 个 别 年 份 有 较 高 增长 
率 和 负增长 外 ， 基 本 维持 较 低 水 平 增 长 率 ， 可 
将 1990-2011 年 界定 为 BDA 的 初步 稳定 发 展 
期 ，@ 2012-2015 年 文献 量 大 幅 增加 ，2015 年 
收录 的 文献 量 已 经 达到 509 篇 ， 与 初期 发 展 阶 
段 (1990-2011 年 ) 的 文献 总 量 603 篇 相差 无 几 这 
4 年 间 文 献 量 增长 率 也 提升 至 50% 左右 ， 从 文 
献 量 的 折线 图 来 看 ， 基 本 呈现 直线 上 升 趋势 ， 增 
长 势头 较 猛 ，2014 年 甚至 达到 92.02%，4 年 年 
均 增 长 率 达 66.27%， 可 见 该 时 期 为 BDA 的 迅 
速 发 展 阶段 。 

为 了 更 加 科学 合理 地 掌握 BDA 技术 领域 相 
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关 文 献 研究 的 发 展 规律 ， 本 研究 对 该 领域 文献 
研究 的 增长 规律 进行 了 时 间 序 列 的 统计 研究 ， 研 
究 过 程 借助 SPSS 统计 分 析 软 件 对 该 领域 的 文 
献 增长 情况 进行 曲线 拟 合 ， 以 验证 其 发 展 规律 
是 否 符合 普 莱 斯 科学 文献 增长 规律 。 本 研究 以 
时 间 (年 份 ) 为 自 变量 ， 以 累计 文献 量 为 因 变 
i, TE SPSS 统计 分 析 软 件 中 对 相关 统计 数据 进 
行 了 曲线 拟 合 。 其 中 包括 线性 拟 合 、 二 次 曲线 
拟 合 、 三 次 曲线 拟 合 、 对 数 函 数 拟 合 、 复 合 函 
数 拟 合 、 增 长 曲线 拟 合 以 及 指数 拟 合 。 根 据 拟 
合 结果 显示 ， 其 中 线性 、 对 数 函 数 拟 合 模 型 的 
相关 系数 丸 较 小 (分 别 为 0.714 和 0.440) , F 
以 排除 ， 其 余 相 关系 数 较 大 的 模型 包括 二 次 曲 
线 拟 合 模 型 、 三 次 曲线 拟 合 模型 、 复 合 函 数 模 
型 、 增 长 函数 模型 以 及 指数 模型 ， 依 据 普 赖 
文献 增长 规律 中 刻画 的 普 赖 斯 曲线 表达 式 。 选 
择 指数 拟 合 模型 来 计算 BDA 领域 文献 量 的 拟 合 
方程 ， 可 以 得 到 如 下 表达 式 : 
F(t)-8.909x0.205' 28.909x0.205' (3) 
本 模型 中 t (年 份 ) 的 初始 值 为 1， 即 1990 
年 设置 为 1， 之 后 依次 递增 ， 该 拟 合 模型 的 拟 合 
分 析 结 果 《〈 模 型 拟 合 情 况 表 、 方 差分 析 表 以 及 
系数 表 ) 见 表 1， 曲 线 拟 合 图 见 图 2。 对 指数 函 
数 模 型 拟 合 的 结果 分 析 如 下 : 


图 1 载 文 量变 化 及 其 增长 率 


(1) 模型 的 拟 合 情况 反映 了 模型 对 数据 的 
解释 能 力 。 修 正 的 可 决 系数 (调整 R) RK, 模 
型 的 解释 能 力 越 强 。 对 表 1 的 结果 分 析 可 知 ， 本 
模型 的 R 为 0.882， 说明 该 模型 对 数据 的 解释 
能 力 较 好 。 


表 1 模型 拟 合 情 况 ( 模型 汇总 ) 
R R 调整 ”估计 值 的 标准 误差 
0.942 0.882 0.572 


0.887 


(2) 方 差分 析 反 映 了 模型 整体 的 显著 性 , 一 
般 将 模型 的 检验 P 值 (Sig.) 与 0.05 作 比较 ， 如 
果 小 于 0.05， 即 为 显著 。 对 表 2 的 结果 分 析 可 
知 ， 该 模型 的 显著 性 水 平 为 0.000, 小 于 0.05, 说 
明 该 模型 是 显著 的 。 


A2 方差 分 析 (ANOVA) 


项 平方 和 df — E F Sig. 
可 归 ^ 61.590 1 61.590 188.104 0.000 
残 差 7.858 24 0327 

总 计 69.449 25 


(3) 回归 系数 是 各 个 变量 在 回归 方程 中 
的 系数 值 ，Sig. 值 表示 回归 系数 的 显著 性 ， 越 
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小 越 显 车 。 对 表 2 的 结果 分 析 可 知 ， 该 模型 
中 ， 常 数 项 是 8.909， 年 份 的 系数 是 0.137，t 值 
是 13.715， 显 著 性 是 0.000。 可 见 两 个 结果 都 是 
显著 的 。 


表 3 系数 统计 


未 标准 化 系数 ”标准 化 系数 | 
项 目 一 一 t Sig. 
B 标准 误差 Beta 
年 份 0.205 0.015 0.942 13.715 0.000 
常数 8.909 2.059 - 4.328 | 0.000 


(4) 图 2 是 线性 、 二 次 函数 、 三 次 函数 
和 指数 函数 的 拟 合 情况 ， 图 中 的 圆圈 表示 实际 
值 ， 不 难看 出 ， 指 数 函 数 拟 合 模型 的 拟 合 效果 
是 最 好 的 。 由 表 1- 表 3 分 析 可 知 ， 该 模型 的 值 
最 高 ， 整 体 P 值 最 小 ， 即 拟 合 优 度 最 好 ， 显 车 
性 最 好 。 
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faa e 
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P y 
.一 A 
c o9 eT 
SER ——A rd 
10 20 


30 
统计 年 代 t 


图 2 拟 合 曲线 


由 以 上 结果 分 析 可 以 得 到 以 下 相关 结 
iE :BDA 领域 的 文献 量 处 于 指数 增长 期 ， 即 迅 
速 发 展 的 阶段 ， 由 此 可 以 推测 ， 在 未 来 一 段 时 
间 内 ， 该 领域 的 相关 研究 还 会 继续 快速 增长 ， 文 
献 量 也 将 呈 指 数 增长 “一 定时 期 内 ) 。 综 合 以 
上 分 析 结 果 可 以 认为 ，BDA 领域 的 文献 发 展 符 
合 普 赖 斯 科学 文献 增长 规律 。 
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3.2 期 刊 分 析 

英国 著名 文献 计量 学 家 布 拉 德 福 最 早 提出 
了 核心 期 刊 的 概念 。 虽 然 布 拉 德 福 的 定义 完全 
是 按照 期 刊 发 表 论文 数量 而 确定 的 ， 具 有 一 定 
局 限 性 ， 而 现在 对 于 核心 期 刊 的 定义 更 多 的 考 
虑 了 期 刊 的 使 用 率 〈 包 括 被 引 率 、 文 摘 率 、 流 
通 率 ) 和 学 术 影 响 力 等 因素 ， 但 布 拉 德 福 文献 集 
中 分 散 定 律 一 直 是 核心 期 刊 评价 的 理论 基础 所 。 
本 文采 用 布 拉 德 福 定 律 的 分 析 方 法 对 BDA 领域 
文章 的 期 刊 分 布 规律 进行 整理 和 研究 。 

所 选取 数据 源 中 的 文献 来 自 于 886 种 
不 同期 刊 ， 其 中 来 自 期 刊 Future Generation 
Computer Systems-The International Journal of 
Grid Computing and Escience 的 文章 最 多 ， 为 30 
篇 ;刊载 文章 超过 10 Cor 10 篇 ) 的 期 刊 有 
14 种 。 具 体 分 析 如 下 : 

根据 布 拉 德 福 定律 中 关于 核心 区 、 相 关 区 
和 非 相关 区 期 刊 数量 的 比例 关系 ， 本 研究 将 886 
种 期 刊 的 载 文 量 分 成 大 致 3 个 区 域 ， 其 中 第 一 
区 域 约 占 总 数 6.4% 的 期 刊 〈57 种 期 刊 ) 发 表 了 
总 量 30% 的 文献 ， 第 二 区 域 约 占 总 数 21.3% 的 
期 刊 〈189 种 期 刊 ) 发 表 了 总 量 30% 左右 的 文 
献 ， 第 三 区 域 约 占 总 数 72.2% 的 期 刊 (640 种 
期 刊 ) 发 表 了 总 量 40% 左右 的 文献 ， 表 明 BDA 
领域 的 文献 呈现 明显 的 核心 密集 分 布 。3 个 区 域 
期 刊 的 分 布 数量 比 为 57:189:640， 这 与 布 拉 德 福 
定律 中 的 Ln 相 拟 合 ， 其 中 约 为 33。 由 以 
上 数据 和 分 析 可 以 判断 ， 本 研究 文献 样本 的 期 
刊 分 布 基本 符合 布 拉 德 福 定律 。 从 1990 年 时 只 
有 1 本 期 刊 发 表 1 篇 文章 ， 发 展 至 2015 年 累计 
共有 886 种 期 刊 共 发 表 1 701 篇 文章 ，BDA 领 
域 已 经 形成 广泛 的 研究 覆盖 范围 并 形成 自己 的 
核心 期 刊 群 。 具体 如 表 4、 表 5、 图 3 Bron: 


表 4 期 刊 分 布 列表 
文献 量 《文献 量 后。 期刊 数 


对 比 项 D tk 量 ( 种 ) 分 比 
核心 区 510 29.98% 57 6.43 
相关 区 512 30.10% 189 21.33 
非 相 关 区 679 39.9294 640 72.23 
合计 1701 100.00% 886 100.00 
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表 5 期 刊 名 称 列 表 ( 载 文 量 > 10 ) 


1.76 
1.41 
1.35 
1.18 
0.94 
0.94 
0.82 
0.65 
0.65 
0.65 
0.65 
0.59 
0.59 
0.59 


mum 文献 量 


累计 文献 量 百分比 累计 百分比 


1.76 
3.17 
4.53 
5.70 
6.64 
7.58 
8.41 
9.05 
9.70 
10.35 
10.99 
11.58 
12.17 
12.76 


期 刊 名 


Future Generation Computer Systems-The International 
Journal of Grid Computing and Escience 


International Journal of Distributed Sensor Networks 
BMC Bioinformatics 

PLOS ONE 

Big Data 


Sensors 


Cluster Computing-The Journal of Networks Software 
Tools and Applications 


IBM Journal of Research and Development 
IEEE Access 
IEEE Transactions on Parallel and Distributed Systems 


Journal of Parallel and Distributed Computing 


IEEE Journal of Selected Topics in Applied Earth 
Observations and Remote Sensing 


Journal of Internet Technology 


Transportation Research Record 


百分比 (%) 
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图 3 期 刊 分 布 ( 布 拉 德 福 定律 研究 ) 
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k= 
3.3 著者 分 布 规律 

著者 是 论文 的 重要 外 部 特征 之 一 ， 是 决定 
论文 质量 的 关键 四。 核心 著者 的 评定 需要 综合 
考虑 多 方面 的 因素 和 指标 ， 洛 特 卡 定律 则 只 从 
发 文 量 角度 评定 某 一 领域 的 核心 著者 ， 虽 然 这 
种 评定 方式 忽略 了 对 著者 发 文 的 ' 质 "的 考量 , 同 
时 忽视 了 在 同一 篇 文章 中 不 同 著者 的 贡献 程度 
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等 因素 ， 但 运用 洛 特 卡 定 律 来 刻画 某 领域 文献 
及 著者 的 分 布 情况 在 一 定 程度 上 是 不 失 公 道 
的 。 

研究 统计 1990-2015 年 在 BDA 领域 发 表 文 
献 的 实际 著者 情况 ， 并 计算 出 按照 洛 特 卡 定 律 
所 估计 的 著者 数 ， 在 此 基础 之 上 比较 二 者 的 相 
对 误差 。 具 体 情况 如 图 4 所 示 : 


著者 数 (人 ) 误差 率 (%) 
7 000 5 000.00 
4 602.96% 
6 000 
4 000.00 
3 787.14% 
5 000 
3 048.26% 3 000.00 
4 000 3-809 
Ae 2 016.33% 2 000.00 
0 
3 000 
1 000.00 
2 000 
p. 0.00 
1 000 í 
238 
126 131 147 360 278 5106 (5152 3 E] | g 
0 -~ —— —— l- -= 一 - _ 四 BM 一 —1 000.00 
12 11 9 8 7 6 5 4 3 2 1 ”论文 篇 数 


加 将 者 数 。 El 治 特 卡 定律 估计 著者 数 。 一 一 误差 率 


从 图 4 可 以 看 出 ， 在 高 发 文 量 的 著者 群 
中 ， 其 著者 数 过 少 ， 如 发 文 量 为 12 篇 、11 篇 和 
9 篇 的 著者 均 只 有 1 人 。 而 按照 洛 特 卡 定律 估计 
来 看 ， 其 文献 车 者 数量 远 不 止 这 些 ， 分 别 应 有 
26 人 、31 人 和 47 人 。 可 见 该 领域 的 实际 著者 
分 布 与 按照 洛 特 卡 定律 估计 的 著者 分 布 相差 较 
多 。 但 发 文 1 篇 的 作者 为 5 916 人 ， 洛 特 卡 定律 
估计 数量 为 3 8099， 实 际 情况 远 远 超出 估计 。 综 
上 所 述 ，BDA 领域 的 文献 著者 分 布 与 按照 洛 特 
卡 定律 估计 的 著者 分 布 相差 很 大 ， 从 整体 的 分 
布 情况 来 看 ， 在 一 定 程度 上 反映 出 大 数据 应 用 
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图 4 文献 实际 著者 分 布 与 洛 特 卡 定律 分 布 比较 


的 发 展 尚未 达到 成 熟 稳定 的 阶段 。 


@ 研 究 结论 及 启示 
研究 通过 对 普 赖 斯 科学 文献 增长 规律 、 布 


拉 德 福 定律 和 洛 特 卡 定 律 的 验证 ， 分 别 从 载 
文 、 期 刊 和 著者 3 个 层面 ， 对 BDA 领域 的 文献 
增长 情况 进行 了 分 析 和 研究 。 根 据 研 究 结果 ， 可 
以 得 出 以 下 几 方 面 的 结论 及 启示 : 

(D 根据 对 载 文 的 分 析 结 果 可 以 观察 到 ， 自 
1990 年 起 ，BDA 领域 的 相关 文献 经 过 一 段 时 
间 的 稳步 发 展 后 ， 直 至 2012 年 开始 显现 突 飞 
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猛 进 的 发 展 态势 ， 该 领域 文献 整体 呈 指 数 增 长 
态势 ， 发 展 符合 普 赖 斯 科学 文献 增长 规律 。 采 
用 此 验证 方法 不 仅 可 以 较为 简单 、 准 确 地 描绘 
BDA 领域 过 去 的 发 展 态势 ， 还 可 据 此 预测 其 未 
来 几 年 将 继续 沿 此 态势 发 展 ， 可 以 更 好 地 刻画 
其 发 展 轨迹 和 整体 走向 。 

Q) 从 期 刊 角度 来 看 ，BDA 领域 已 形成 核心 
期 刊 群 ， 其 中 包括 BMC Bioinformatics. Sensors 
等 ， 该 期 刊 群 在 一 定 程度 上 代表 着 该 领域 的 发 
展 前 沿 ， 此 外 ， 据 分 析 结 果 显示 ， 文 献 样本 
的 期 刊 分 布 基本 符合 布 拉 德 福 定律 。 依 据 此 结 
论 ， 可 以 针对 核心 期 刊 群 的 期 刊 及 其 所 刊载 的 
文章 进行 深入 研究 ， 以 更 加 及 时 、 准 确 地 掌握 
该 领域 发 展 的 前 沿 动态 。 

(3) 从 著者 分 布 情况 来 看 ， 该 领域 著者 分 布 
与 洛 特 卡 定律 相 差 很 大 ， 尚 未 形成 较 具 影响 力 
的 核心 著者 群 ， 在 一 定 程度 上 反映 出 该 领域 的 
相关 研究 尚未 成 熟 。 此 外 ， 还 可 以 认为 ， 对 于 
一 个 发 展 尚未 成 熟 、 尚 处 于 发 展 探索 阶段 的 新 
兴 和 领域 ， 要 想 形 成 一 个 较 权 威 较 具 影响 力 的 核 
心 研究 群 ， 是 需要 时 间 和 经 验 的 积累 。 

(4) 本 研究 应 用 经 典 的 计量 学 定律 ， 研 究 和 
验证 了 BDA 领域 的 发 展 规律 。 以 此 类 推 ， 对 于 
其 他 的 新 兴 领 域 的 研究 ， 也 可 以 运用 这 种 验证 
经 盟 定 律 的 方法 ， 以 更 好 地 掌握 该 新 兴 领 域 的 
发 展 趋势 和 状态 。 

从 近年 来 大 数据 技术 的 迅猛 发 展 来 看 ， 无 
论 是 各 国政 府 、 国 际 组 织 、 社 会 企业 ， 还 是 高 
校 机 构 、 各 学 科 领 域 ， 都 给 予 了 极 大 的 关注 和 
良好 预期 ， 而 最 重要 的 环节 当 属 对 于 大 数据 技 
术 在 各 行 各 业 的 应 有 用。 虽然 在 BDA 技术 上 存在 
一 定 的 挑战 ， 但 相信 这 更 是 一 次 良好 的 推动 人 
类 社会 整体 进步 的 机 遇 ， 大 数据 应 用 是 大 势 所 
趋 ， 是 社会 进步 的 新 方向 。 本 文 分 别 从 载 文 、 期 
刊 和 著者 层面 揭示 了 BDA 领域 的 现状 和 发 展 趋 
势 ， 希 望 能 够 在 一 定 程度 上 揭示 该 领域 的 研究 
规律 并 预测 未 来 的 发 展 趋势 ， 以 期 为 后 续 相 关 
研究 提供 有 价值 的 参考 。 

研究 过 程 中 ， 由 于 条 件 有 限 ， 有 许多 因素 
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尚未 纳入 考虑 范围 ， 这 可 能 在 一 定 程度 上 导致 
研究 的 不 准确 和 不 全 面 。 后 续 笔者 将 加 强 全 方 
位 的 考虑 ， 以 更 加 准确 和 全 面 的 掌握 BDA 领域 
的 发 展 情况 。 
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Research on Developing Regulations of Big Data Application Technology Based on 
Bibliometrics Laws 


Zhang Jiaojiao Liu Yun Cheng Yijie 
School of Management and Economics, Beijing Institute of Technology, Beijing 100081 

Abstract: [Purpose/significance] This paper aims to study the trend over the past and the present situation of 
big data application, and indicate the development regulation and trend in the future. [Method/process] This 
paper analyzed literature year distribution, journal distribution and author distribution of big data application 
field, and was the first to verify whether or not its development corresponds to the three fundamental 
bibliometric laws, though there are lots of factors that have not been taken into consideration. [Result/ 
conclusion] Results shows that starting in 1990, literatures related to big data application field went through 
a period of stable development, and appears to develop rapidly from 2012, whose development corresponds 
to Price law of scientific literature growth. Development of the literature sample in the study is in line with 
Bradford's law, and forms a group of core journals, including Bmc bioinformatics, Sensors and so on. In the 
view of the author distribution, distribution in this filed is far different from that in Lotka's law, and there's 
no doubt that it has not yet formed the core author group. 


Keywords: big data application Price law of scientific literature growth  Bradford'slaw Lotka’s law 
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